Optimización Convexa: De la Verosimilitud Estadística a Programas Convexos

La inferencia estadística pregunta: "Dada esta información, ¿cuáles son los parámetros subyacentes más probables?" Esta diapositiva conecta esa pregunta con Optimización Convexa. Transformamos el concepto probabilístico de verosimilitud en un programa estructurado, mostrando que bajo condiciones de log-concavidad, encontrar la mejor estimación es equivalente a resolver un problema de optimización convexa.

El Marco de la Verosimilitud

La función de verosimilitud es la distribución de probabilidad $p_x(y)$ considerada como una función del parámetro $x$ para una muestra observada fija $y$. Para estimar $x$, empleamos estimación de máxima verosimilitud (ML): eligiendo el valor que hace que los datos observados sean más probables.

$$\hat{x}_{ml} = \text{argmax}_x p_x(y) = \text{argmax}_x l(x)$$

Para mayor eficiencia computacional, usamos la función de verosimilitud logarítmica, $l(x) = \log p_x(y)$. Debido a que el logaritmo es una función monótonamente creciente, preserva la ubicación del máximo mientras convierte productos (de observaciones independientes) en sumas fáciles de manejar.

El Programa de Optimización de MLE (7.1)

Formalizamos la estimación como un programa matemático:

$$\begin{array}{ll} \text{maximizar} & l(x) = \log p_x(y) \\ \text{sujeto a} & x \in C \end{array}$$ (7.1)

Este programa es un problema de optimización convexa si:

La función de verosimilitud logarítmica $l$ es cóncava para cada valor de $y$.
El conjunto factible $C$ (información previa) está descrito por restricciones de igualdad lineales y desigualdades convexas.

Incorporación de Restricciones y Previas

La estimación de máxima verosimilitud requiere redefinir $p_x(y)$ como cero para $x \notin C$ para imponer explícitamente restricciones físicas o previas. En el espacio de optimización, esto significa que la función de verosimilitud logarítmica se asigna el valor $-\infty$ para los parámetros $x$ que violan estas restricciones, creando efectivamente una barrera infranqueable para el optimizador.

🎯 Principio Fundamental

La transición de "Máxima Verosimilitud" a "Programa Convexo" depende de la concavidad de la densidad logarítmica. Si el ruido o la distribución es log-concava, la estimación estadística se convierte en una tarea de optimización resoluble globalmente.

PREGUNTA 1

¿Por qué la función de verosimilitud logarítmica $l(x)$ se prefiere sobre la verosimilitud $p_x(y)$ para la optimización?

Cambia la ubicación del máximo a un punto más estable.

Es una función monótonamente creciente que transforma productos en sumas.

Asegura que el problema siempre sea lineal.

Elimina la necesidad de restricciones.

PREGUNTA 2

¿En qué condiciones se considera el problema de MLE (7.1) un problema de optimización convexa?

Cuando $p_x(y)$ es una función lineal de $x$.

Cuando $l(x)$ es convexa y $C$ es cualquier conjunto.

Cuando $l(x)$ es cóncava y $C$ está definido por igualdades lineales y desigualdades convexas.

Solo cuando el ruido es gaussiano.

PREGUNTA 3

Si un parámetro $x$ viola una restricción previa ($x \notin C$), ¿qué valor se asigna a la verosimilitud logarítmica?

$+\infty$

$-\infty$

PREGUNTA 4

Verdadero o Falso: El MLE para una densidad log-concava con restricciones convexas siempre tiene un máximo global único si existe.

Verdadero

Falso

PREGUNTA 5

Considere una distribución exponencial con parámetro $\lambda$. Si sabemos que $\lambda \ge 5$ pero los datos sugieren $\lambda = 2$, ¿dónde estará el MLE con restricciones?

En $\lambda = 2$

En $\lambda = 5$

El problema no tiene solución.

En $\lambda = 0$